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摘要 : [目的 /意义 ] 理 解 科学 知识 发 展演 化 过 程 有 助 于 促进 科学 研究 ， 从 微观 视角 
追踪 知识 在 细 分 领域 中 的 结构 与 演化 特征 对 知识 评估 和 知识 服务 具有 重要 意义 。 
[方法 /过 程 ] 以 医学 信息 学 中 知识 元 为 例 , 利用 语义 类 型 界定 每 种 疾病 的 治疗 相关 
细 分 领域 ， 构 建 125 种 疾病 不 同时 刻 的 知识 元 引用 网 络 ， 采 用 Leiden 算法 识别 
知识 群落 , 从 群落 知识 演化 、 群 落 知识 竞争 状态 等 维度 揭示 疾病 个 体 的 演化 特征 ; 
提出 丰富 度 、 均 衡 性 与 差异 度 三 种 测度 指标 , 揭示 疾病 个 体 与 整体 的 多 样 性 特征 。 
[结果 /结论 ] 研 究 表明 , 知识 元 引用 网 络 中 的 群落 能 够 反映 出 疾病 知识 结构 与 演进 
状态 。 整 体 层次 的 疾病 知识 多 样 性 特征 包括 : 疾病 知识 群落 数量 不 断 增加 ， 群 落 
间 规 模 与 组 成 差异 不 断 扩 大 ; 不 同 疾病 表现 出 常规 型 、 早 期 争议 型 、 泛 指 型 演化 
模式 ， 研 究 较 早 的 疾病 普遍 均衡 性 较 低 、 差 异 度 较 高 。 
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随 着 全 球 科 学 出 版 物 的 急速 增长 ， 挖 掘 和 分 析 科 学 知识 的 演进 特征 与 规律 具 
有 重要 意义 , 揭示 科学 知识 结构 及 其 演化 规律 日 益 成 为 图 书 情报 学 科 重 要 的 研究 
问题 。 领域 与 细 分 领域 是 科学 知识 在 不 同 层次 的 聚合 , 领域 中 往往 存在 多 种 不 同 
的 主题 ， 而 细 分 领域 则 表示 领域 中 某 一 主题 下 的 同类 型 知识 内 涵 。 例如， 若 将 生 
物 医 学 学 科 中 与 治疗 相关 的 所 有 科学 知识 视 为 一 个 研究 领域 , 那么 其 中 糖尿 病 和 
哮 哺 有 关 的 疾病 治疗 知识 则 可 以 分 别 视 为 一 个 细 分 领域 .当前 科学 知识 相关 研究 
较 多 关注 于 学 科 或 者 研究 领域 层次 , 而 分 析 细 分 领域 知识 结构 并 揭示 其 特征 将 有 
助 于 更 加 深入 地 理解 科学 知识 发 展 过 程 。 

从 分 析 对 象 来 看 , 相关 研究 多 采用 关键 词 或 主题 词 来 进行 领域 主题 的 挖掘 与 
分 析 ， 然 而 关键 词 或 主题 词 仅仅 是 文献 表层 知识 特征 的 反映 由 。 知 识 元 是 一 种 从 
科学 文献 内 容 中 解析 出 的 知识 单元 ， 能 更 加 细 粒 度 地 反映 科学 知识 的 内 部 结构 。 
SPO 三 元 组 是 由 主语 (Subject)、 谓 语 (Predication) ME (Object) 组 成 的 表 
征 一 定语 义 内 容 和 关系 的 知识 元 三 元 组 。 相关 研究 较 多 关注 基于 三 元 组 的 药物 治 
疗 外 、 基 因 诊 断 是 以 及 其 他 知识 图 谱 儿 相关 研究 ， 忽 视 了 三 元 组 在 知识 演化 分 析 
中 的 重要 作用 。 实际 上 作为 一 种 可 操作 的 表示 知识 元 的 数据 模型 ， 三 元 组 能 够 在 
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文献 引用 过 程 中 发 生 承 接 关系 ， 是 知识 计量 的 一 种 可 行 途 征 中 。 不 同 于 关键 词 或 
主题 词 的 过 度 抽象 凝练 , 三 元 组 丰富 的 语义 类 型 能 够 更 为 精准 地 界定 知识 所 属 的 
细 分 领域 。 另 一 方面 ,引文 网 络 中 三 元 组 所 组 成 的 社 群 也 可 以 更 为 全 面 地 反映 细 
分 领域 知识 组 成 。 

由 此 , 本文 提 出 了 一 种 针对 SPO 三 元 组 的 细 分 领域 演化 分 析 方 法 , 基于 知识 
元 引用 网 络 识别 细 分 领域 的 知识 群落 ， 进 而 分 析 细 分 领域 的 多 样 性 与 演化 特征 ， 
最 后 挖掘 整体 领域 的 多 样 性 演化 规律 与 模式 。 本 文 首 次 提出 利用 知识 元 三 元 组 构 
建 引用 网 络 , 通过 三 元 组 的 语义 类 型 与 知识 群落 兼顾 了 科学 知识 的 完整 性 和 结构 
化 ， 为 分 析 知 识 演 化 的 内 容 与 路 径 等 特征 提供 了 新 的 视角 。 同 时 ， 本 文 利 用 知识 
群落 测度 细 分 领域 的 多 样 性 , 归纳 出 潜在 的 科学 知识 演化 模式 , 能 够 为 领域 知识 
多 样 性 评价 提供 参考 借鉴 ， 丰 富 知识 元 相关 理论 研究 。 


1 相关 研究 
1.1 细 粒 度 科学 知识 表示 

科学 知识 的 细 粒 度 表示 是 发 现 其 结构 与 深层 特征 的 前 提 ， 知 识 元 是 当前 细 粒 
度 科学 知识 表示 的 重要 形式 之 一 ， 其 与 三 元 组 和 知识 模 因 有 着 密 不 可 分 的 联系 。 
最 早 有 学 者 认为 知识 元 是 一 种 由 向 导 信 息 和 知识 组 成 的 知识 结构 外， 后续 知 识 元 
内 涵 被 重新 界定 为 “N 个 语义 三 元 组 的 逻辑 组 合 "， 并 据 此 形成 知识 元 的 SPO = 
元 组 描述 模型 中 。 当 前 有 研究 通过 从 海量 SPO 三 元 组 中 挖 气 矛 盾 性 知识 中 或 是 针 
对 某 一 类 疾病 发 现 规 律 性 语义 模式 外 进行 一 定 的 知识 发 现 。 知识 模 因 则 是 引文 关 
系 或 共 现 关系 中 伴随 主题 演化 的 稳定 性 术语 0， 其 往往 是 在 引文 关系 中 获得 继 
承 和 复制 的 简短 的 文本 单元 中， 有 研究 将 其 用 于 分 析 跨 学 科 领 域 的 学 科 结 构 [11。 
因而 三 元 组 中 的 主语 、 谓语 和 宾语 作为 具有 实际 语义 的 知识 模 因 能 够 界定 领域 与 
细 分 领域 ， 成 为 知识 元 引用 网 络 演 化 分 析 的 重要 切入 点 。 

知识 演化 与 知识 群落 的 相关 研究 源 于 对 类 似 生 物 问 题 的 借鉴 。 波 普尔 首次 从 
生物 进化 的 视角 看 答 知 识 的 生长 发 展 问 题 中 ， 后 续 学 者 陆续 丰富 知识 进化 理论 ， 
认为 知识 进化 的 演变 发 展 遵循 着 知识 的 遗传 和 变异 机 制 等 规律 和。 知识 的 遗传 
机 制 是 指 知识 通过 继承 与 传递 实现 了 知识 的 延续 性 ; 知识 的 变异 机 制 是 指 不 同 的 
知识 片段 重新 组 合成 新 的 知识 (基因 ) 的 过 程 。 类 比 于 生物 群落 的 概念 模型 ， 知 
识 群落 被 界定 为 基于 知识 间 潜 在 的 内 在 联系 或 特定 目标 而 形成 的 , 具备 一 定 生物 
属性 的 知识 群集 05, 并 且 知 识 间 的 引用 关系 能 够 塑造 领域 知识 的 群落 结构 09。 在 
图 书 情 报 学 领域 , 针对 知识 群落 的 分 析 与 复杂 网 络 理论 中 的 派系 分 析 方 法 较为 类 
MW, 并 逐步 应 用 于 探索 知识 发 展 脉络 及 规律 h1。 受 此 启发 ， 本文 对 知识 元 引用 网 
络 开展 知识 群落 层面 的 演化 研究 与 多 样 性 分 析 ， 以 期 弥补 以 往 相 关 研 究 的 缺失 。 


1.2 领域 知识 演化 

主题 演化 揭示 的 结果 往往 比 知识 演化 过 程 更 为 宏观 (1 站, 前 者 更 适用 于 不 同 主 
题 的 演变 , 在 知识 演化 相关 问题 上 的 可 移植 性 较 差 。 部 分 研究 针对 具体 研究 领域 
识别 演进 主题 ， 并 构建 演进 路 径 进 行 分 析 。 例 如 对 医学 专利 数据 的 SAO 结果 进 
行 词 频 统 计 并 构建 语义 网 络 识别 核心 技术 主题 与 发 展 阶 段 05、 对 美国 国家 科学 
基金 会 (NSF) 数据 中 AI 领域 标题 与 摘要 提取 关键 词 并 进行 主题 挖掘 [站 ， 或 是 
直接 将 生物 医学 领域 的 SPO 三 元 组 作为 文献 的 蔡 代 ， 以 构建 基于 谓词 的 语义 网 
络 并 识别 新 兴 研 究 主 题 PJ。 更 多 研究 关注 构建 关键 词 的 语义 网 络 忆 、 共 现 网 络 请 ] 
或 是 主题 词 的 关联 网 络 P9， 并 结合 LDA 模型 已] 挖掘 主题 。 演 进 路 径 的 构建 则 基 


于 不 同时 间 窗 口 主题 之 间 的 相似 性 ,例如 有 学 者 从 共 词 网 络 出 发 , 利用 关键 词 的 
共 现 赋 予 权 重 并 构建 距离 矩阵 确定 演进 路 径 P。 

不 同 于 主题 演化 ， 知 识 往往 通过 引用 关系 在 某 一 主题 内 演变 ， 众 多 学 者 围绕 
知识 模 因 引文 网 络 分 析 知 识 演 化 。 有 研究 从 知识 趋同 、 知 识 聚 合 与 发 散 、 主 题 流 
动 (Topic dynamics) 三 个 角度 挖掘 知识 在 引文 间 的 联系 情况 R24， 或 是 利用 知识 
生命 周期 理论 总 结 知识 演进 过 程 , 通过 关键 词 对 的 直接 与 间接 两 类 引用 方式 构建 
知识 演化 路 径 [ 尖 。 除 此 之 外 , 也 有 研究 利用 引用 关系 构建 知识 模 因 的 扩散 级 联网 
络 并 发 现 医学 信息 学 的 四 种 扩散 模式 请 ， 或 是 基于 知识 基因 流动 和 扩散 两 种 机 
制 分 析 引 文 间 知 识 的 遗传 和 变异 情况 B0。 部 分 学 者 开始 通过 知识 元 开展 知识 演 
化 研究 , 例如 对 不 同时 期 的 ESI 前 沿 领域 知识 元 集合 测度 其 迁移 与 重组 情况 以 展 
现 微观 知识 演进 过 程 与 规律 8B1, (ERE REF FIR AR), 而 细 粒 度 的 三 元 组 模 
型 则 为 开展 细 分 领域 知识 演化 提供 了 一 条 可 行 的 路 径 。 


2 基于 知识 元 引用 网 络 的 知识 群落 发 现 
2.1 细 分 领域 的 知识 元 引用 网 络 构建 

知识 元 引用 网 络 是 指 将 处 于 相同 细 分 领域 的 知识 元 作为 节点 ， 以 知识 元 所 属 
文献 间 引 用 关系 为 边 , 构成 的 知识 网 络 。 整 体 领域 由 谓语 所 表述 的 语义 限定 ， 细 
分 领域 则 由 知识 元 的 主语 以 及 宾语 的 语义 类 型 限定 (如 图 1 )。 以 三 元 组 “卡巴 拉 
汀 -治疗 -阿尔 兹 海 默 症 * 为 例 , 首先 通过 谓词 “治疗 ”确定 该 三 元 组 所 属 的 治疗 领域 ， 
进而 由 药物 “卡巴 拉 汀 ”与 疾病 < 阿尔 效 海 默 症 ” 将 该 知识 元 节点 归属 于 治疗 领域 
内 以 阿尔 兹 海 默 症 为 细 分 领域 的 知识 元 网 络 。 截至 时 间 T 组 成 的 网 络 形式 化 表示 
为 Gri={NTiEri}， 其 中 N 为 知识 元 节点 集合 ，E 为 有 向 边 集 合 。 


图 1 知识 元 引用 网 络 构建 示例 


按照 知识 元 引用 网 络 定 义 ， 描 述 具 体 构建 过 程 : 

Step]. 初始 化 知识 元 引用 网 络 G={N,E}， 选 定 文献 集 P 与 细 分 领域 Q， 领 域 由 文 
献 集 P 中 所 抽取 的 SPO 三 元 组 的 谓语 决定 ， 细 分 领域 由 SPO 三 元 组 中 的 主语 以 
及 宾语 的 语义 类 型 决定 。 
Step2. 选择 细 分 领域 Q 内 所 有 SPO 三 元 组 作为 节点 ， 得 到 节点 集合 
N={n1,n2,...,ni} 

Step3. 以 节点 集合 所 属 文献 间 的 引用 关系 作为 边 得 到 边 集 合 E ={ei,es,.…,ei} 
Step4. 按照 文献 集 P 出 版 时 间 划 分 不 同时 间 Ti AARE Gri {Nr Eri} 


Step5. 输出 细 分 领域 动态 知识 元 引用 网 络 集 W={Gri Gre,....Gri} 


2.2 基于 Leiden 算法 的 群落 识别 

Leiden 算法 是 一 种 分 层 聚 类 算法 ， 其 修改 了 Louvain 算法 中 部 分 社区 连接 不 
紧密 的 问题 , 通过 节点 的 局 部 移动 、 分 区 细 化 与 网 络 聚 合 实现 了 良好 的 社区 识别 
效果 59。 在 知识 元 引用 网 络 中 , 知识 群落 是 指 聚 集 相 似 知识 并 通过 引用 关系 连接 
在 一 起 的 知识 元 语义 集合 。 划 分 不 同时 刻 的 网 络 社区 ， 能 够 识别 细 分 领域 内 的 知 
识 群落 并 呈现 知识 的 扩散 与 转移 情况 。 本 文 运用 Leiden 算法 从 知识 元 引用 网 络 
中 识别 社区 ， 由 于 结构 过 小 的 社区 可 能 不 足以 形成 成 熟 的 知识 群落 ， 因 此 本 文 将 
知识 群落 的 节点 闵 值 确定 为 3。 

以 往 研 究 通 过 度 中 心性 、 节 点 数量 等 网 络 测度 指标 B3] 或 是 其 他 综合 指标 区 9 识 
别 核心 节点 作为 主题 标签 。 由 于 知识 元 引用 网 络 中 节点 类 型 相同 且 重 复 度 较 高 ， 
故 在 设 定 阔 值 后 将 知识 元 占 比 较 高 的 一 个 或 多 个 知识 作为 该 群落 的 知识 标签 , 以 


群落 Mi 中 某 个 知识 元 Ki 为 例 ， 知 识 标签 Lix, 的 计算 过 程 为 : 


m; 
PK; = yn (1) 
dies My 
PK Pmin 
os (2) 
mie Pmax — Pmin 
Lu, = {KilpK, > 9} (3) 


其 中 mi 为 Ki 在 群落 中 的 数量 , DL, mi 为 群落 知识 元 总 量 。 之 后 为 网 络 内 不 同 
群落 统一 量 纲 ， 对 各 个 时 刻 群 落 的 px 进行 标准 化 处 理 ，px 与 zk 分 别 表示 标准 化 
前 后 Ki 对 应 的 值 , pmin 与 pmax 代 表 了 标准 化 前 群落 Mt 中 最 小 与 最 大 的 值 。 最 后 得 
到 群落 Mi 中 大 于 阔 值 的 知识 标签 集 Dor 。 


2.3 领域 知识 群落 多 样 性 测度 
知识 群落 与 生物 群落 具有 一 定 共 性 ， 本 文 借鉴 生物 多 样 性 衡量 的 三 个 基本 维 
度 一 一 丰富 度 (Variety)、 均 衡 性 (Balance) 与 差异 度 (Disparity) 对 领域 多 样 性 
展开 测度 分 析 。 丰富 度 用 以 衡量 当前 细 分 领域 知识 群落 的 种 类 多 样 性 ， 生物 学 常 
用 Chao 指数 ( 即 群 落 数 量 ) 来 测度 丰富 度 V。 均衡 性 反映 了 细 分 领域 内 科学 研究 
对 不 同 知识 群落 的 倾 回程 度 , 受到 广泛 认可 的 知识 群落 往往 累积 更 多 的 知识 元 数 
量 ， 本 文 利用 分 组 计算 法 ， 使 用 社 群 内 数量 占 比 计算 基尼 系数 即 均衡 性 B。 差 异 
度 是 对 细 分 领域 内 不 同 知识 群落 组 成 的 差异 程度 的 评估 , 差异 程度 的 变化 彰显 了 
当前 知识 集 的 适用 性 情况 ,生物 学 常 采 用 B 多 样 性 分 析 衡 量 群落 间 差 异 ， 本 文 将 
细 分 领域 内 群落 组 成 映射 为 癌 量 ， 并 通过 计算 两 两 间 相 似 度 得 到 距离 矩阵 ， 计 算 
领域 差异 程度 D。 上 述 计算 公式 如 下 : 
V=n (4) 


n ` r 
1 i-1 y, + yi-ly, 
p=1--) a Pitdi Di (5) 
i=1 


diet Pi 


Uj 


= 6 
Pi Via, ( ) 
Sij = cos(y,, y) (8) 


其 中 为 领域 内 群落 数量 ui 为 第 i MRR RAE yy AR i 和 j 


个 群落 的 知识 元 类 型 组 成 向 量 ， 包 含 知识 元 种 类 与 数量 ，s;j 为 群落 i 与 j 之 间 组 


成 的 余弦 相似 度 , $j 为 由 sij 组 成 的 距离 矩阵 。 类 似 于 生物 群落 多 样 性 的 变化 ， 知 
识 群 落 多 样 性 的 提高 初步 体现 为 知识 群落 的 丰富 度 增加 、 均 衡 性 的 提高 以 及 差异 
度 的 提高 , 现实 知识 系统 往往 在 演进 中 发 生 多 个 趋势 的 多 样 性 变化 ,下 文 将 从 具 
体 领域 对 知识 群落 演化 特征 进行 实证 分 析 。 


3 细 分 领域 知识 群落 演化 实证 分 析 
3.1 领域 选择 

受制 于 数据 、 工 具 软 件 与 学 科 信 息 学 发 展 程度 的 影响 SI， 基 于 SPO 的 知识 
发 现 研 究 目前 主要 集中 于 生物 医学 领域 , 该 领域 具有 复杂 的 语义 关系 , 经 由 文献 
提取 的 三 元 组 较 之 于 关键 词 具 有 更 丰富 的 语义 表达 能 力 。 本 研究 使 用 由 美国 国立 
医学 图 书馆 开发 的 SemMedDB 知识 库 数据 (versions 43)， 该 数据 库 使 用 医学 知 
识 抽取 工具 SemRep 对 美国 医学 文献 数据 库 PubMed 抽取 标题 和 摘要 进而 形成 知 
识 三 元 组 。 SemRep 按照 21 种 谓词 关系 识别 句子 主语 和 宾语 , 每 种 谓词 代表 了 医 
学 研究 的 某 一 类 知识 三 元 组 集合 81， 如 DIAGNOSES 代表 了 疾病 的 诊断 研究 、 
TREATS 代表 了 疾病 的 治疗 研究 。 

SemMedDB 的 核心 模式 描述 了 SPO 三 元 组 基本 属性 ， 涉 及 主语 和 宾语 的 语 
义 类 型 、 三 元 组 所 属 文献 的 pmid 号 ， 同 时 关联 了 三 元 组 抽取 位 置 、 文 献 出 版 时 
间 等 必要 的 数据 项 BE] (如 图 2)。 由 于 SemMedDB 建立 于 PubMed 数据 库 的 基础 
之 上 ， 其 pmid 号 与 PubMed 数据 库 中 包含 的 文献 间 引 用 关系 相对 应 ， 从 而 能 够 
获取 三 元 组 间 引 用 关系 。 


PREDICATION (部 分 ) 


FK ”三 元 组 所 属 句子 ID (SENTENCE_ID) wen 


SENTENCE (部 分 ) 


„| PK_ SENTENCE ID 
句子 位 置 : 标题 或 摘要 (TYPE) 


FK ”三 元 组 所 属 文献 (PMID) 


主语 (SUBJECT_NAME) ~ 
5, f CITATIONS (部 分 ) 


| PK PMID 


主语 类 型 (SUBJECT_SEMTYPE) 


宾语 (OBJECT_NAME) 


宾语 类 型 (OBJECT_SEMTYPE) 文献 出 版 日 期 (DP) 


谓语 (PREDICATE) 


2 数据 项 描述 示例 


对 SemMedDB 基本 信息 进行 统计 ， 发 现 TREATS 领域 尤其 是 与 疾病 相关 的 


治疗 领域 是 生物 医学 关注 的 热点 ， 占 SPO 总 频次 的 28.7% OLK 1)。 与 之 相关 
的 语义 模式 涉及 疾病 的 治疗 药物 、 治 疗 措施 以 及 治疗 设备 等 知识 ， 即 phsu- 


TREATS-dsyn、topp-TREATS-dsyn、horm-TREATS-dsyn 三 类 语义 模式 。 因 此 ， 
本 文选 定 TREATS 领域 中 的 疾病 研究 作为 知识 群落 演化 分 析 的 范围 。 


表 1 谓词 领域 与 TREATS 领域 语义 模式 SPO 频次 top10 


谓词 领域 SPO 频次 ”语义 模式 SPO 频次 
TREATS 10552632 topp-TREATS-podg 1525719 
AFFECTS 5172022 topp-TREATS-dsyn 1152226 
COEXISTS WITH 4342036 topp-TREATS-neop 812378 
INTERACTS WITH 4011706 phsu-TREATS-dsyn 776897 
CAUSES 3140324 phsu-TREATS-podg 622437 
ASSOCIATED WITH 2695277 hica-TREATS-humn 387540 
STIMULATES 2185713 phsu-TREATS-mamm 385541 
ADMINISTERED TO 1783801 topp-TREATS-fndg 225790 
INHIBITS 1590886 hlca-TREATS-dsyn 221523 
AUGMENTS 1299988 topp-TREATS-popg 209580 


备注 : topp: 治疗 或 预防 措施 , podg: 病 患 群体 ，dsyn: 疾病 或 症状 ; neop: 肿瘤 形成 过 程 ; 
phsu: 药理 物质 ，hlca: 保健 活动 ; humn: 人 群 ，mamn: 哺乳 动物 ，fndg: 发 现 


3.2 细 分 领域 数据 收集 与 预 处 理 

本 研究 首先 以 TREATS 为 谓语 (PREDICATE) 检索 词 在 SemMedDB 中 进行 
初步 筛选 。 以 往 研究 局 限于 对 某 一 类 疾病 的 知识 发 现 问题 开展 实证 分 析 , 为 得 到 
知识 群落 更 为 客观 的 演化 特征 , 本 文 将 数据 收集 范围 扩散 至 研究 关注 度 较 高 的 多 
种 疾病 。 具 体操 作为 筛选 SPO 三 元 组 中 涉及 dsyn 的 语义 模式 ， 得 到 125 项 数量 
最 多 的 疾病 名 称 ， 共 包含 1048577 条 三 元 组 。 

对 筛选 后 的 数据 进行 预 处 理 ， 有 具体 流程 如 下 : 

Q@ 删 除 由 标题 句 抽取 而 来 的 三 元 组 ， 其 TYPE 属性 为 ti。 

@ 清 除 SUBJECT_SEMTYPE 属性 为 人 群 (humn) 等 不 表述 实际 信息 的 三 元 
2H, 147 Physicians, Author 等 。 

OIZ HE SEBJECT_NAME 属性 对 不 同 疾病 中 高 频 出 现 的 较为 宽泛 的 描述 治疗 
药物 、 治 疗 措施 以 及 治疗 设备 的 词语 进行 删除 ,包括 Pharmaceutical Preparations, 


Therapeutic procedure 等 。 


由 将 来 源 于 相同 文献 的 多 个 SPO 三 元 组 的 pmid 号 进行 去 重 。 

最 后 按照 节点 所 属 文献 出 版 时 间 与 疾病 名 称 分别 进 行 时 序 分 类 与 疾病 分 类 ， 
得 到 截至 不 同时 间 和 疾病 的 节点 集合 ， 利 用 三 元 组 的 pmid 号 之 间 的 引用 关系 构 
建 有 向 边 并 得 到 边 集合 。 对 于 任 一 疾病 , 选择 1960 至 2019 年 期 间 与 该 疾病 相关 
的 三 元 组 ， 每 三 年 构建 累积 的 动态 知识 元 引用 网 络 。 


pin 


3.3 群落 竞争 视角 下 的 细 分 领域 演化 状态 分 析 

在 细 分 领域 内 知识 元 由 相同 类 型 的 知识 模 因 组 成 ，TREATS 领域 中 构建 的 知 
识 元 引用 网 络 覆 盖 了 适用 于 某 疾 病 的 全 部 治疗 知识 。 在 每 一 网 络 内 的 不 同 知识 群 
落 之 间 存 在 恒定 的 芜 争 关系 , 而 某 一 群落 知识 标签 集中 的 多 个 知识 处 于 共生 关系 。 
对 某 疾病 网 络 进行 群落 识别 与 知识 标签 表示 后 , 研究 利用 不 同时 间 知 识 标签 的 变 


化 表征 知识 群落 的 演变 ， 并 利用 群落 组 成 的 余弦 相似 度 作 为 t 与 tt1 时 刻 群 落 之 
间 相似 度 。 定义 t 与 tt1 时 刻 群落 之 间 相似 度 为 Sim(M, Mya), HPM, 5M4 
别 表示 t 与 tt1 时 刻 群落 的 知识 元 组 成 ， 其 计算 公式 为 : 
Sim(Me, M41) = cos(Me, Mer1) (9) 
在 得 到 不 同时 刻 知 识 群 落 间 相似 度 后 ， 设 定 阔 值 筛选 出 知识 群落 之 间 的 演化 
关系 并 构建 演化 路 径 , 低 于 阐 值 的 知识 群落 认为 不 存在 显著 的 演化 关系 , 最 后 对 
路 径 进 行 可 视 化 。 有 学 者 将 网 络 中 社区 的 演化 定义 为 新 生 、 成 长 、 合 并 、 衰 减 、 
分 裂 以 及 衰亡 六 种 模式 B9， 研 究 结合 信息 的 生命 周期 理论 6B9 对 知识 群落 竞争 视 
角 下 的 演化 状态 进行 定义 (如 表 2)。 


表 2 群落 竞争 视角 下 的 演化 状态 定义 


演化 状态 定义 

知识 产生 t+] 时 刻 出 现 的 群落 知识 标签 与 + 时刻 及 以 前 均 不 同 

知识 遗传 t 时 刻 与 e+ 时 刻 具 有 相同 的 群落 知识 标签 

知识 合并 t 时 刻 不 同 的 知识 群落 在 tH 时 刻 融入 新 的 知识 群落 

知识 分 裂 t 时 刻 知识 群落 在 tt1 时 刻 分 化 为 两 个 不 同 的 知识 群落 
知识 替代 t+] 时 刻 群 落 知 识 标签 与 t 时 刻 不 同 

知识 过 时 t+l 时 刻 及 以 后 不 再 出 现 + 时 刻 某 群 落 知识 标签 

4 结果 分 析 


4.1 疾病 治疗 领域 知识 群落 识别 结果 

构建 TREATS 领域 (以 下 简称 TREATS) 中 125 种 疾病 的 不 同时 刻 的 知识 元 
引用 网 络 , 得 到 20 个 时 间 惟 下 共计 2032 个 网 络 , 之 后 识别 网 络 中 知识 群落 并 统 
计 相 关 变 量 。 由 于 自 1992 年 起 绝 大 部 分 疾病 均 已 形成 群落 ， 研 究 将 1992 年 、 
2004 年 与 2016 年 作为 时 间 切 片 ， 呈 现 不 同时 期 疾病 的 群落 数量 、 群 落 的 平均 大 
小 、 网 络 平均 长 度 以 及 引用 关系 数量 的 密度 分 布 情况 〈 如 图 3)。 

疾病 的 知识 群落 数量 与 规模 随时 间 逐 渐 增 大 ， 并 且 不 同 疾病 的 群落 差异 也 逐 
渐 增 大 。 从 疾病 群落 数量 的 分 布 可 以 看 出 ， 历 年 疾病 群落 数量 大 多 集中 于 0 至 
200 之 间 ， 而 随 着 知识 的 积累 ， 群 落 数量 向 100 至 200 区 间 增 加 ， 同 时 2016 年 
群落 的 平均 大 小 整体 高 于 1992 年 10 个 节点 的 群落 平均 大 小 ，2016 年 不 同 疾病 
的 平均 群落 数量 与 大 小 分 布 更 加 均匀 。 除 此 之 外 ,知识 元 引用 网 络 的 深度 与 密集 
程度 逐渐 增加 。 每 过 十 年 ， 几乎 所 有 疾病 的 网 络 引 用 关系 数量 较 之 于 前 一 阶段 都 
会 增加 将 近 一 个 数量 级 。 并 且 随 着 引用 关系 的 累积 和 节点 数量 的 增加 ， 网 络 的 平 
均 路 径 长 度 分 布 也 更 加 均匀 且 数 量 明显 上 升 。 

初步 的 群落 识别 结果 表明 ,疾病 的 知识 元 引用 网 络 随时 间 更 加 密集 并 且 网 络 
内 的 群落 数量 以 及 内 部 规模 稳定 增加 ， 这 为 领域 的 多 样 化 分 析 提 供 了 一 定 依据 ; 
而 不 同 疾病 逐渐 扩大 的 群落 发 展 程度 差异 也 表明 , 群落 多 样 性 演化 可 能 受到 其 他 
因素 的 影响 。 
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图 3 知识 群落 识别 结果 分 布 


4.2 示例 细 分 领域 的 群落 演化 分 析 

阿尔 北海 默 证 的 疾病 治疗 研究 最 早出 现 于 1980 年 ， 而 后 积累 了 大 量 知识 并 
且 至 今 仍 是 尚未 完全 攻克 的 研究 热点 之 一 ， 具 有 典型 的 分 析 价值 。 本 研究 以 阿尔 
北海 默 症 为 示例 刻画 并 分 析 知 识 标签 及 群落 知识 演进 状态 , 最 后 阐释 疾病 的 多 样 
性 演化 特征 。 该 分 析 流 程 同 样 适用 于 其 他 疾病 细 分 领域 。 

4.2.1 群落 知识 标签 演化 分 析 

本 研究 在 表示 各 个 时 期 的 群落 知识 标签 后 ， 筛 选 出 保持 十 年 以 上 存在 于 较 大 
知识 群落 且 规 模 持续 扩大 的 知识 共计 10 种 ， 统 计 其 在 网 络 中 全 部 所 属 知 识 群 落 
中 的 数量 并 绘制 河流 图 (如 图 4)。 

上 述 知识 可 视 为 阿尔 北海 默 症 的 主流 治疗 方案 ， 其 大 致 可 划分 为 四 个 阶段 。 
疾病 研究 伊始 毒 书 豆 碱 (Physostigmine) 在 有 限 的 知识 群落 内 获得 了 绝对 的 关注 
E. M 1989 年 开始 他 克 林 (Tacrine) 快速 扩张 逐渐 蔡 代 毒 扇 豆 碱 ;同时 非 当 体 
抗 炎 药 (Anti-inflammatory agents, Non-Steroidal) 与 司 来 吉 兰 〈Selegiline) 也 形 
成 规模 较 大 的 知识 群落 。 直 到 1998 年 随 着 研究 的 井喷 式 发 展 ， 差 异化 的 知识 在 
不 同 群 落 中 形成 ， 早 期 知识 群落 规模 逐渐 停 清 。 这 一 时 期 ， 乙 酰 胆 碱 酯 酶 抑制 剂 

(Acetylcholinesterase Inhibitors )、 多 奈 哌 齐 (Donepezil)、 卡 巴 拉 汀 (rivastigmine) 

以 及 加 兰 他 敏 〈Galantamine) 代替 了 前 序 知识 ， 免 疫 治 疗 〈Immunotherapy) 与 
美金 刚 (Memantine〉 也 逐渐 获得 研究 关注 。2010 年 至 2019 年 期 间 ， 免 疫 治疗 
与 谷 氨 酸 酯 抑制 剂 获 得 更 多 认同 , 而 卡巴 拉 汀 则 在 知识 标签 演化 过 程 中 消失 。 同 
时 ， 这 一 时 期 姜黄 素 〈“Curcumin)、 深 部 脑 刺 激 (Deep Brain Stimulation). #FR 
(Acupuncture procedure) 等 新 型 药物 或 手段 虽 限 于 年 份 不 足 未 被 统计 在 内 ， 但 
同样 形成 了 较 大 的 知识 群落 。 
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4 阿尔 北海 默 症 知 识 标签 河流 图 


4.2.2 群落 知识 竞争 状态 分 析 

以 往 演化 研究 将 社区 主题 间 的 相似 度 阔 值 定 为 0.7， 考 虑 到 TREATS 内 知识 
元 种 类 重复 度 较 高 ， 充 分 试验 后 将 阿尔 兹 海 默 症 的 知识 群落 相似 度 阔 值 设 定 为 
0.8， 并 局 部 呈现 包含 上 述 主流 知识 的 标签 的 路 径 。 

本 研究 发 现 ， 计 算 知 识 标签 后 阿尔 北海 默 症 的 10 种 主流 知识 在 各 自 时 期 均 
存在 竞争 关系 。 随 着 研究 的 发 展 ， 愈 加 多 样 的 知识 使 得 竞争 不 断 加 深 ， 而 知识 共 
生 关系 仅 存在 于 部 分 知识 的 合并 与 分 裂 过 程 。 依 据 本 文 对 知识 演进 状态 的 定义 ， 
以 2004 至 2016 年 包含 多 奈 哌 齐 与 美金 刚 的 知识 标签 为 例 , 节点 颜色 表示 不 同 的 
年 份 ( 如 图 5)。 自 2007 年 多 奈 哌 齐 初次 进行 知识 分 裂 后 ， 一 个 群落 发 生 知识 遗 
传 并 于 2013 年 继续 发 生 分 裂 ， 另 一 个 群落 则 经 过 逐步 的 知识 蔡 代 与 美金 刚 的 另 
一 群落 发 生 知识 合并 进而 维持 后 者 的 遗传 状态 。 

归纳 其 他 知识 路 径 后 本 研究 发 现 ， 新 知识 的 产生 基本 从 依附 于 当前 主流 知识 
群落 到 独立 产生 新 的 知识 群落 ,而 非 逐步 奉 代 原 有 的 知识 群落 。 在 主流 知识 的 生 
长 过 程 中 , 知识 遗传 是 以 卡巴 拉 汀 等 6 种 知识 为 代表 的 单一 知识 标签 最 为 典型 的 
特征 。 知识 的 过 时 意味 着 知识 标签 的 消失 或 者 群落 规模 的 停滞 ,前 者 源 于 知识 蔡 
代 【〔 毒 扁豆 碱 ) 或 是 群落 的 重组 (卡巴 拉 汀 )， 后 者 表现 为 相 邻 时 刻 群 落 相 似 度 
接近 于 1， 这 一 点 在 2004 年 前 后 他 克 林 的 群落 相似 度 表现 得 到 了 初步 证 明 ， 而 
美金 刚 在 2013 至 2019 年 均 维 持 在 0.99 以 上 的 相似 度 意味 着 其 将 可 能 面临 知识 
过 时 。 

局 限于 SemRep 工具 的 抽取 结果 ， 部 分 知识 标签 仍然 存在 概念 较为 相似 的 问 
题 ， 例 如 胆 碱 酯 酶 抑制 剂 (Cholinesterase Inhibitors) 与 卡巴 拉 汀 等 药物 均 存在 药 
理 上 的 重合 。 限 于 研究 篇 幅 ， 研 究 对 大 范围 的 知识 演化 机 制 并 未 进行 深入 探究 ， 
但 通过 知识 标签 追踪 主流 知识 的 演化 过 程 , 为 刻画 知识 生命 周期 提供 了 可 行 的 路 


4 
{£0 


chinaXiv:202304.00947v1 


pezil,Memanth 
© / 
donepezil Th Ra 
/ 
A © 
Fi \ donepezil Memantine 
\ 
\ 
© © © 


图 5 知识 演进 局 部 路 径 


4.2.3 群落 多 样 性 特征 分 析 

群落 的 多 样 性 演化 指标 表明 ， 阿 尔 北海 默 症 的 知识 群落 早期 增 速 较 快 ， 且 丰 
富 度 规模 持续 增加 ， 在 2019 年 达到 63 个 群落 。 从 群落 均衡 性 上 看 ， 疾 病 研究 早 
期 存在 较 高 的 基尼 系数 跨度 , 均衡 性 大 幅 降 低 ， 结 合 知识 标签 演化 表明 这 一 时 期 
他 克 林 在 有 限 的 知识 中 得 到 大 量 积累 ， 而 在 2000 年 后 大 致 维持 在 0.8 左右 的 均 
衡 值 。 疾 病 研究 则 保持 着 始终 较 高 的 差异 度 , 早期 由 于 知识 群落 数量 较 少 且 知 识 
元 种 类 较为 单一 ， 群 落 间 差异 度 接 近 于 1， 之 后 群落 差异 度 波 动 下 降 并 稳定 0.9 
左右 (如 图 6)。 

生物 多 样 性 理论 认为 , 较 高 的 丰富 度 、 均衡 性 与 差异 度 一 般 意 味 着 较 高 的 领 
REEE, 也 即 是 阿尔 兹 海 默 症 研究 在 均衡 性 指标 上 结果 呈现 不 佳 。 但 对 于 疾病 
治疗 领域 , 缺乏 较 大 的 独占 性 群落 意味 着 细 分 领域 尚未 形成 受到 主导 性 认可 的 知 
识 , 表明 对 该 疾病 的 研究 尚未 找到 一 个 共识 性 的 解决 方案 , 因而 知识 群落 多 样 性 
特征 的 分 析 还 需 结合 细 分 领域 的 具体 语义 。 结 合 上 文 知 识 标签 演化 与 竞争 状态 分 
析 ， 在 疾病 研究 逐渐 成 熟 的 过 程 中 ， 阿 尔 兹 海 默 证 的 知识 标签 种 类 逐渐 增加 ， 并 
且 伴随 着 知识 群落 丰富 度 与 差异 度 的 持续 增长 。 
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图 6 阿尔 北海 默 症 多 样 性 特征 


4.3 整体 研究 领域 的 多 样 性 演化 特征 
除 阿 尔 北海 默 症 外 ， 本 研究 测度 了 所 选 125 种 疾病 的 多 样 性 演化 特征 ， 并 分 
析 其 相似 或 相 弄 的 多 样 性 表现 。 
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4.3.1 多 样 性 演化 一 般 性 特征 

本 研究 首先 统计 了 125 种 疾病 的 三 项 多 样 性 指标 的 平均 值 与 方差 .对 拟 合 后 
的 结果 分 析 疾 病 多 样 性 演化 特征 的 共性 (如 图 7)。 

TREATS 中 疾病 丰富 度 逐 渐 提 高 ， 且 平均 群落 规模 的 增 速 接近 于 二 次 函数 型 
增长 (红色 曲线 )， 但 方差 的 指数 型 增长 表明 疾病 间 群 落 规模 的 差异 显著 增 大 ， 
表明 即使 是 包含 SPO 三 元 组 数量 最 多 的 125 种 疾病 ， 研 究 知 识 仍 存在 较 大 的 富 
集 差异 。 此 外 ， 知识 群落 的 平均 基尼 系数 在 统计 年 限 内 大 致 呈现 S 型 增长 , 说 明 
知识 演化 系统 的 领域 均衡 性 不 断 下 降 且 中 期 改变 幅度 较 大 。2019 年 TREATS 内 
较 多 疾病 出 现 了 少数 占据 绝对 支配 地 位 的 知识 群落 , 意味 着 组 成 该 群落 的 药物 知 
识 在 疾病 治疗 效力 上 得 到 了 高 度 认 同 。 均 衡 性 方差 在 1992 年 后 持续 下 降 证 明了 
疾病 间 均 衡 性 差异 逐渐 缩小 ， 部 分 疾病 基尼 系数 逐渐 稳定 。 

最 后 疾病 的 群落 差异 度 随时 间 小 幅 下 降 但 总 体 较 高 ,知识 群 落 保持 着 较 大 的 
差异 程度 。 差异 性 方差 的 波动 下 降 , 表明 疾病 内 知识 群落 的 组 成 差异 变化 更 加 相 
似 。 进 一 步 统计 125 种 疾病 的 差异 度数 据 , 发 现 其 分 化 为 大 幅 升 高 与 小 幅 较 低 两 
种 相 异 趋势 ， 且 2019 年 大 部 分 疾病 的 相似 度 稳定 在 0.09 附近 ， 结 合 示例 疾病 推 
断 低 相 似 度 的 表现 可 能 来 源 于 知识 标签 的 多 样 化 以 及 群落 竞争 状态 的 深化 。 
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图 7 整体 领域 疾病 多 样 性 演变 相似 特征 


4.3.2 多 样 性 演化 区 位 特征 

丰富 度 、 均 衡 性 以 及 差异 度 指标 的 综合 呈现 能 够 体现 不 同 疾病 的 区 位 分 布 情 
况 。 研 究 分 别 以 横 轴 、 纵 轴 代 表 均 衡 性 与 差异 度 指 标 ， 点 的 大 小 表示 疾病 群落 丰 
富 度 规模 ， 点 的 颜色 代表 不 同 的 年 份 ， 得 到 125 种 疾病 的 散 点 图 〈 如 图 8)。 从 
1962 年 至 2019 年 颜色 的 分 布 可 以 发 现 疾病 的 演化 大 致 遵从 以 下 三 种 模式 : 一 类 
是 由 低 差 异 度 高 均衡 性 的 小 规模 疾病 研究 向 高 差异 度 低 均 衡 性 的 大 规模 研究 迈 
HE; 后 两 类 是 由 高 差异 度 高 均衡 性 的 小 规模 疾病 分 别 向 中 等 均衡 性 与 低 均衡 性 的 
大 规模 研究 演进 ， 且 差异 度 小 幅 下 降 。 
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图 8 整体 领域 疾病 多 样 性 演变 相 异 特征 


不 同 疾 病 的 发 展 模式 体现 出 内 部 差异 化 的 知识 演进 过 程 ,疾病 知识 群落 规模 


的 稳定 


增长 表明 细 分 领域 知识 丰富 度 持续 


首 加 。 但 差异 度 大 幅 提 高 的 演进 模式 表 


明 疾 病 的 早期 研究 阶段 治疗 药物 较为 单一 , 知识 群落 组 成 随 着 研究 深入 日 趋 复杂 ， 


疾病 治疗 逐渐 多 元 化 ， 可 将 其 视 作 “常规 型 "演进 模式 。 反 之 疾病 研究 早期 的 高 差 
异 度 可 能 源 于 出 现 了 几 类 具有 争议 性 的 治疗 方案 且 只 在 各 自 的 群落 里 认可 , 而 随 


着 疾病 研究 的 发 展 , 某 一 类 药物 或 是 新 药物 开始 占据 疾病 研究 的 主体 地 位 ， 本 研 


究 将 向 着 高 差异 度 低 均 衡 性 演进 的 疾病 视 为 “早期 争议 型 "模式 。 最 后 部 分 疾病 在 


2019 年 表现 的 中 等 均衡 性 表明 其 尚未 出 现 占 据 绝 对 支配 地 位 的 知识 群落 ， 为 初 


步 探 究 这 一 现象 的 成 因 ， 本 文 统计 了 部 分 中 等 均衡 与 低 均 衡 疾病 的 名 称 及 其 在 
2019 年 的 基尼 系数 〈 见 表 3)， 可 以 发 现 中 等 均衡 性 的 疾病 概念 较为 抽象 ， 多 为 
某 一 身体 系统 或 器 官 的 通用 性 描述 ; 低 均衡 性 特征 则 更 多 指向 专 指 性 疾病 , 本 研 


究 将 高 差异 度 中 等 均衡 性 疾病 视 作 “ 泛 指 型 "知识 演进 模式 。 
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表 3 低 均衡 与 中 等 均衡 疾病 描述 差异 


基尼 系数 中 等 均衡 性 疾病 基尼 系数 


0.928 
0.924 
0.908 
0.903 
0.893 
0.893 
0.889 
0.888 
0.887 
0.882 


4.3.3 多 样 性 演化 时 间 特 征 
考虑 到 疾病 的 研究 起 始 时 间 这 一 因素 ， 本 研究 探究 其 与 疾病 知识 群落 多 样 性 
发 展 是 否 有 关 。 研究 所 取 奖 病 自 起 始 研究 时 间 开 始 未曾 中 断 , 通过 获取 疾病 样本 


的 时 间 惟 数量 可 粗略 得 到 该 疾病 的 研究 时 长 。 对 不 同 研究 时 长 的 疾病 进行 
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计算 多 样 性 指标 的 平均 值 , 得 到 疾病 研究 时 间 差异 气泡 图 (如 图 9)。 纵 轴 自 下 而 
上 研究 时 间 依次 增加 ， 横 轴 表 示 基 尼 系 数 ， 颜 色 深浅 表示 相似 度 大 小 ， 点 的 大 小 
表示 群落 数量 。 

虽然 起 始 研 究 时 间 较 早 的 疾病 数量 远 高 于 短期 研究 疾病 ,但 结果 仍 可 以 表明 ， 
早期 开始 研究 的 疾病 具有 更 高 的 基尼 系数 与 更 低 的 相似 度 。 结 合 前 文 多 样 性 演变 
的 一 般 规 律 ， 说 明 起 始 时 间 较 早 的 研究 形成 了 更 高 的 差异 度 与 更 低 的 均衡 性 。 但 
不 同 起 始 时 间 的 疾病 并 未 形成 较 大 的 丰富 度 差 异 , 表明 知识 群落 规模 的 增长 并 不 
完全 受到 起 始 时 间 因 素 的 制约 , 一 些 新 出 现 的 疾病 可 能 会 在 短 时 间 内 受到 更 多 的 
关注 与 研究 ， 从 而 快速 积累 群落 规模 。 
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图 9 疾病 研究 时 长 差异 气泡 图 


5 总 结 与 展望 

本 文 以 知识 元 三 元 组 为 研究 对 象 ， 提 出 知识 元 引用 网 络 并 设计 细 分 领域 知识 
群落 演化 的 分 析 框 架 与 研究 流程 , 在 借鉴 丰富 度 、 均 衡 性 与 差异 性 三 种 多 样 性 测 
度 指标 基础 上 对 生物 医学 领域 展开 了 较为 全 面 的 多 样 性 演化 分 析 , 本 文 主要 得 出 
以 下 结论 。 

(1) 方 法 丰富 了 知识 群落 的 相关 研究 , 通过 示例 疾病 的 群落 演化 验证 了 分 析 
知识 演化 路 径 以 及 演进 状态 的 可 行 性 。 本 研究 梳理 了 阿尔 北海 默 症 四 个 阶段 的 
10 种 主流 治疗 方案 , 并 分 析 其 生命 周期 中 的 遗传 、 蔡 代 等 知识 演进 状态 , 最 后 结 
合 疾病 在 均衡 性 上 的 表现 提出 知识 多 样 性 的 评估 应 结合 具体 的 语义 内 涵 。 

(2) 本 文 发 现 与 治疗 相关 的 生物 医学 领域 遵从 三 个 方面 的 多 样 性 演化 规律 。 
一 是 领域 内 疾病 丰富 度 呈 现 二 次 函数 型 增长 且 均 衡 性 呈现 S 型 降低 ， 二 是 根据 
多 样 性 指标 的 综合 呈现 可 大 致 划分 出 常规 型 、 早期 争议 型 以 及 泛 指 型 三 类 疾病 演 
化 模式 ， 三 是 开展 研究 较 早 的 疾病 倾向 于 具有 更 高 的 差异 度 与 更 低 的 均衡 性 。 

本 文 仍 存 在 一 定 不 足 。 例如 并 未 考虑 知识 元 在 文章 中 的 语义 功能 ， 未 来 可 以 
融合 方法 、 结 论 等 功能 为 知识 元 附加 更 多 可 供 挖 掘 的 信息 。 除 此 之 外 ， 实 证 分 析 
未 深入 到 疾病 其 他 领域 知识 的 关联 ， 对 疾病 的 外 源 性 信息 结合 不 够 紧密 ， 无 法 做 
出 更 深入 的 医学 解释 。 如 何 更 具 目 的 性 的 抽取 SPO 三 元 组 为 并 系统 性 地 构建 路 
径 将 会 是 未 来 研究 的 重点 。 
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Abstract: [Purpose/Significance]Comprehending the development process of 
scientific knowledge contributes to the scientific research.. For knowledge evaluation 
and service, it is crucial to trace the structure and progress of knowledge in subdivided 
fields from a micro perspective. [Method/Process] This article took the knowledge unit 
in medical informatics as an example. This paper used the semantic type of triples to 
define the treatment-related subdivision fields, constructed the knowledge unit citation 
networks of 125 diseases at different intervals, and identified the knowledge 
communities with the Leiden algorithm. From the dimensions of knowledge evolution 
and knowledge competition state, we aim to reveal the evolutionary characteristics of 
disease individuals. The indexes of Richness, Balance, and Difference are calculated to 
reveal the diversity characteristics of disease individuals as well as the overall disease 
population. [Result/conclusion]The research demonstrates that the knowledge 
communities can reflect the knowledge structure and evolution state of disease 
individuals. The overall diversity characteristics of diseases include: the commonality 
of indicators indicates that the number of all disease knowledge communities is 
increasing, and the differences in scale and composition between communities are 
expanding. Different diseases show conventional, early-controversial, and generalized 
evolutionary patterns, with the earlier diseases being less balanced and more different. 
Keywords: SPO triples knowledge unit knowledge community evolution 
characteristics knowledge diversity 


